The high feature dimensionality is a challenge in music emotion recognition. There is no common consensus on a relation between audio features and emotion. The MER system uses all available features to recognize emotion; however, this is not an optimal solution since it contains irrelevant data acting as noise. In this paper, we introduce a feature selection approach to eliminate redundant features for MER. We created a Selected Feature Set (SFS) based on the feature selection algorithm (FSA) and benchmarked it by training with two models, Support Vector Regression (SVR) and Random Forest (RF) and comparing them against with using the Complete Feature Set (CFS). The result indicates that the performance of MER has improved for both Random Forest (RF) and Support Vector Regression (SVR) models by using SFS. We found using FSA can improve performance in all scenarios, and it has potential benefits for model efficiency and stability for MER task.
translated by 谷歌翻译
当许多松散相关的未标记数据可用并且稀缺标记的数据时,机器智能的范式从纯粹的监督学习转变为更实用的情况。大多数现有算法都假定基础任务分布是固定的。在这里,我们考虑了随着时间的推移,该任务分布中的一个更现实和具有挑战性的环境会不断发展。我们将这个问题称为半监督的元学习,并具有不断发展的任务分布,缩写为集合。在这种更现实的环境中出现了两个关键挑战:(i)在存在大量未标记的分发(OOD)数据的情况下,如何使用未标记的数据; (ii)如何防止由于任务分配转移而导致先前学习的任务分布的灾难性遗忘。我们提出了一种强大的知识和知识保留的半监督元学习方法(秩序),以应对这两个主要挑战。具体而言,我们的订单引入了一种新型的共同信息正则化,以使用未标记的OOD数据鲁棒化模型,并采用最佳的运输正规化来记住以前在特征空间中学习的知识。此外,我们在一个非常具有挑战性的数据集上测试我们的方法:大规模非平稳的半监督任务分布的集合,该任务分布由(至少)72K任务组成。通过广泛的实验,我们证明了拟议的订单减轻了忘记不断发展的任务分布,并且对OOD数据比相关的强基础更强大。
translated by 谷歌翻译
基于AI的蛋白质结构预测管道(例如AlphaFold2)已达到了几乎实验的准确性。这些高级管道主要依赖于多个序列比对(MSA)和模板作为输入来从同源序列中学习共进化信息。但是,从蛋白质数据库中搜索MSA和模板很耗时,通常需要数十分钟。因此,我们尝试通过仅使用蛋白质的主要序列来探索快速蛋白质结构预测的极限。提出了Helixfold单一的形式将大规模蛋白质语言模型与AlphaFold2的优质几何学习能力相结合。我们提出的方法,Helixfold单个,首先预先培训是一种大规模蛋白质语言模型(PLM),使用了数以千计的主要序列利用自我监督的学习范式,将用作MSA和模板的替代方法共同进化信息。然后,通过将预训练的PLM和AlphaFold2的必需组件组合在一起,我们获得了一个端到端可区分模型,以仅从主要序列预测原子的3D坐标。 Helixfold-Single在数据集CASP14和Cameo中得到了验证,通过基于MSA的方法,具有大型同源家庭的基于MSA的方法,从而实现了竞争精度。此外,与主流管道进行蛋白质结构预测相比,Helixfold单个的时间比主流管道的时间少得多,这表明其在需要许多预测的任务中的潜力。 HelixFold-Single的守则可在https://github.com/paddlepaddle/paddlehelix/tree/dev/dev/pprotein_folding/helixfold-single上获得,我们还在https://paddlehelix.baidu.com上提供稳定的Web服务。 /app/drug/protein-single/prevast。
translated by 谷歌翻译
在3D视觉中,视觉重新定位已被广泛讨论:鉴于预构建的3D视觉图,估计查询图像的6 DOF(自由度)姿势。大规模室内环境中的重新定位可实现有吸引力的应用程序,例如增强现实和机器人导航。但是,当相机移动时,在这种环境中,外观变化很快,这对于重新定位系统来说是具有挑战性的。为了解决这个问题,我们建议一种基于虚拟视图综合方法Rendernet,以丰富有关此特定情况的数据库和完善姿势。我们选择直接渲染虚拟观点的必要全局和本地特征,而不是渲染需要高质量3D模型的真实图像,并分别将它们应用于后续图像检索和功能匹配操作中。所提出的方法在很大程度上可以改善大规模室内环境中的性能,例如,在INLOC数据集中获得7.1 \%和12.2 \%的改善。
translated by 谷歌翻译
无任务持续学习(CL)旨在学习非平稳数据流,而无需明确的任务定义,不要忘记以前的知识。广泛采用的内存重播方法可能会逐渐对长数据流有效,因为该模型可能会记住存储的示例并过度拟合内存缓冲区。其次,现有方法忽略了内存数据分布的高不确定性,因为内存数据分布与所有先前数据示例的分布之间存在很大差距。为了解决这些问题,我们首次提出了一个原则的内存演进框架,以使内存缓冲区逐渐难以通过分布强大的优化(DRO)来动态发展内存数据分布。然后,我们得出了一个方法家族,以通过Wasserstein梯度流(WGF)在连续概率中进化内存缓冲区数据。所提出的DRO是W.R.T最糟糕的记忆数据分布,因此保证了模型性能,并且比现有基于内存重新播放的方法更加可靠的功能。对现有基准测试的广泛实验证明了拟议方法减轻遗忘的有效性。作为拟议框架的副产品,与现有的无任务CL方法相比,我们的方法对对抗性示例更强大。
translated by 谷歌翻译
随着高动态范围(HDR)摄影的日益普及和可访问性,用于动态范围压缩和中等呈现的音调映射操作员(TMO)实际上是要求的。在本文中,我们开发了一种基于生物学的,计算效率和感知优化的两阶段神经网络图像TMO。在第一阶段,由人类视觉系统(HVS)早期阶段的生理学动机,我们首先将HDR图像分解为标准化的Laplacian金字塔。然后,我们使用两个轻巧的深神经网络(DNN),将这种归一化表示作为输入并估计相应LDR图像的拉普拉斯金字塔。我们通过最小化标准化的拉普拉斯金字塔距离(NLPD)来优化音调映射网络,这是一种对人类对音调映射图像质量判断的校准的感知度量。在第二阶段中,我们通过输入HDR图像``校准'',生成具有不同颜色饱和度和细节可见性的伪型曝光图像堆栈。然后,我们通过最大化MEF-SSIM的变体,这是另一个具有感知校准的度量以进行图像融合,将另一个轻巧的DNN训练将LDR图像堆叠融合到所需的LDR图像中。通过这样做,提出的TMO是完全自动的,以映射未校准的HDR图像。在一组独立的HDR图像中,我们发现我们的方法生成具有更好的视觉质量的图像,并且是本地最快的TMO之一。
translated by 谷歌翻译
磁共振成像(MRI)是重要的医学成像模型,而需要长时间的采集时间。为了减少采集​​时间,已经提出了各种方法。然而,这些方法未能以明确的结构重建图像,以两种主要原因。首先,在MR图像中广泛存在的类似补丁,而最先前的基于深度学习的方法忽略此属性,并且仅采用CNN学习本地信息。其次,现有方法仅使用清晰的图像来限制解决方案空间的上限,而下限不会受约束,从而无法获得网络的更好参数。为了解决这些问题,我们向本地和全球学习MRI重建网络(CLGNET)提出了对比的学习。具体地,根据傅立叶理论,傅里叶域中的每个值由空间域中的所有值计算。因此,我们提出了一种空间和傅里叶层(SFL),以同时学习空间和傅立叶域中的本地和全局信息。此外,与自我关注和变压器相比,SFL具有更强的学习能力,可以在更短的时间内实现更好的性能。基于SFL,我们设计了一个空间和傅里叶的剩余块作为模型的主要组成部分。同时,要限制解决方案空间的下限和上限,我们引入了对比度学习,这可以将结果拉到清晰图像上,并将结果推到远离下采样的图像。不同数据集和加速率的广泛实验结果表明,所提出的CLGNET实现了新的最先进的结果。
translated by 谷歌翻译
了解代理之间的复杂社交互动是轨迹预测的关键挑战。大多数现有方法考虑成对交通代理或在局域之间的相互作用,而相互作用的性质是无限的,涉及同时不确定的代理和非局部区域。此外,它们对不同类别的代理商来说,它们同样对待异质的交通代理,同时忽视人们在IFFerent类别的交通代理中的多种反应模式。为了解决这些问题,我们提出了一个简单但有效的无限邻域交互网络(UNIN),其预测多个类别中异构代理的轨迹。具体地,所提出的无限邻域交互模块同时产生相互作用涉及的所有代理的融合特征,其适用于任何数量的代理和任何范围的交互区域。同时,提出了一个分层图注意模块,以获取类别到类别的交互和代理到代理交互。最后,估计高斯混合模型的参数用于产生未来轨迹。基准数据集的广泛实验结果表明,通过最先进的方法对我们的方法进行了显着改进。
translated by 谷歌翻译
Benefiting from the intrinsic supervision information exploitation capability, contrastive learning has achieved promising performance in the field of deep graph clustering recently. However, we observe that two drawbacks of the positive and negative sample construction mechanisms limit the performance of existing algorithms from further improvement. 1) The quality of positive samples heavily depends on the carefully designed data augmentations, while inappropriate data augmentations would easily lead to the semantic drift and indiscriminative positive samples. 2) The constructed negative samples are not reliable for ignoring important clustering information. To solve these problems, we propose a Cluster-guided Contrastive deep Graph Clustering network (CCGC) by mining the intrinsic supervision information in the high-confidence clustering results. Specifically, instead of conducting complex node or edge perturbation, we construct two views of the graph by designing special Siamese encoders whose weights are not shared between the sibling sub-networks. Then, guided by the high-confidence clustering information, we carefully select and construct the positive samples from the same high-confidence cluster in two views. Moreover, to construct semantic meaningful negative sample pairs, we regard the centers of different high-confidence clusters as negative samples, thus improving the discriminative capability and reliability of the constructed sample pairs. Lastly, we design an objective function to pull close the samples from the same cluster while pushing away those from other clusters by maximizing and minimizing the cross-view cosine similarity between positive and negative samples. Extensive experimental results on six datasets demonstrate the effectiveness of CCGC compared with the existing state-of-the-art algorithms.
translated by 谷歌翻译
As one of the prevalent methods to achieve automation systems, Imitation Learning (IL) presents a promising performance in a wide range of domains. However, despite the considerable improvement in policy performance, the corresponding research on the explainability of IL models is still limited. Inspired by the recent approaches in explainable artificial intelligence methods, we proposed a model-agnostic explaining framework for IL models called R2RISE. R2RISE aims to explain the overall policy performance with respect to the frames in demonstrations. It iteratively retrains the black-box IL model from the randomized masked demonstrations and uses the conventional evaluation outcome environment returns as the coefficient to build an importance map. We also conducted experiments to investigate three major questions concerning frames' importance equality, the effectiveness of the importance map, and connections between importance maps from different IL models. The result shows that R2RISE successfully distinguishes important frames from the demonstrations.
translated by 谷歌翻译